home *** CD-ROM | disk | FTP | other *** search
/ CU Amiga Super CD-ROM 16 / CU Amiga Magazine's Super CD-ROM 16 (1997-10-16)(EMAP Images)(GB)[!][issue 1997-11].iso / CUCD / Graphics / Ghostscript / source / shcgen.c < prev    next >
C/C++ Source or Header  |  1996-10-29  |  14KB  |  463 lines

  1. /* Copyright (C) 1994, 1996 Aladdin Enterprises.  All rights reserved.
  2.   
  3.   This file is part of Aladdin Ghostscript.
  4.   
  5.   Aladdin Ghostscript is distributed with NO WARRANTY OF ANY KIND.  No author
  6.   or distributor accepts any responsibility for the consequences of using it,
  7.   or for whether it serves any particular purpose or works at all, unless he
  8.   or she says so in writing.  Refer to the Aladdin Ghostscript Free Public
  9.   License (the "License") for full details.
  10.   
  11.   Every copy of Aladdin Ghostscript must include a copy of the License,
  12.   normally in a plain ASCII text file named PUBLIC.  The License grants you
  13.   the right to copy, modify and redistribute Aladdin Ghostscript, but only
  14.   under certain conditions described in the License.  Among other things, the
  15.   License requires that the copyright notice and this notice be preserved on
  16.   all copies.
  17. */
  18.  
  19. /* shcgen.c */
  20. /* Generate (bounded) Huffman code definitions from frequencies, */
  21. /* and tables from definitions. */
  22. #include "memory_.h"
  23. #include "stdio_.h"
  24. #include <stdlib.h>        /* for qsort */
  25. #include "gdebug.h"
  26. #include "gserror.h"
  27. #include "gserrors.h"
  28. #include "gsmemory.h"
  29. #include "scommon.h"
  30. #include "shc.h"
  31. #include "shcgen.h"
  32.  
  33. /* ------ Frequency -> definition procedure ------ */
  34.  
  35. /* Define a node for the Huffman code tree. */
  36. typedef struct count_node_s count_node;
  37. struct count_node_s {
  38.     long freq;        /* frequency of value */
  39.     uint value;        /* data value being encoded */
  40.     uint code_length;    /* length of Huffman code */
  41.     count_node *next;    /* next node in freq-sorted list */
  42.     count_node *left;    /* left child in tree (smaller code_length) */
  43.     count_node *right;    /* right child in tree (greater code_length) */
  44. };
  45.  
  46. #ifdef DEBUG
  47. #  define debug_print_nodes(nodes, n, tag, lengths)\
  48.      if ( gs_debug_c('W') ) print_nodes_proc(nodes, n, tag, lengths);
  49. private void
  50. print_nodes_proc(const count_node *nodes, int n, const char *tag, int lengths)
  51. {    int i;
  52.  
  53.     dprintf1("[w]---------------- %s ----------------\n", tag);
  54.     for ( i = 0; i < n; ++i )
  55.       dprintf7("[w]node %d: f=%ld v=%d len=%d N=%d L=%d R=%d\n",
  56.            i, nodes[i].freq, nodes[i].value, nodes[i].code_length,
  57.            (nodes[i].next == 0 ? -1 : (int)(nodes[i].next - nodes)),
  58.            (nodes[i].left == 0 ? -1 : (int)(nodes[i].left - nodes)),
  59.            (nodes[i].right == 0 ? -1 : (int)(nodes[i].right - nodes)));
  60.     for ( i = lengths; i > 0; )
  61.       {    int j = i;
  62.         int len = nodes[--j].code_length;
  63.  
  64.         while ( j > 0 && nodes[j-1].code_length == len )
  65.           --j;
  66.         dprintf2("[w]%d codes of length %d\n", i - j, len);
  67.         i = j;
  68.       }
  69. }
  70. #else
  71. #  define debug_print_nodes(nodes, n, tag, lengths) DO_NOTHING
  72. #endif
  73.  
  74. /* Node comparison procedures for sorting. */
  75. #define pn1 ((const count_node *)p1)
  76. #define pn2 ((const count_node *)p2)
  77. /* Sort by decreasing frequency. */
  78. private int
  79. compare_freqs(const void *p1, const void *p2)
  80. {    long diff = pn2->freq - pn1->freq;
  81.     return (diff < 0 ? -1 : diff > 0 ? 1 : 0);
  82. }
  83. /* Sort by increasing code length, and secondarily by decreasing frequency. */
  84. private int
  85. compare_code_lengths(const void *p1, const void *p2)
  86. {    int diff = pn1->code_length - pn2->code_length;
  87.     return (diff < 0 ? -1 : diff > 0 ? 1 : compare_freqs(p1, p2));
  88. }
  89. /* Sort by increasing code value. */
  90. private int
  91. compare_values(const void *p1, const void *p2)
  92. {    return (pn1->value < pn2->value ? -1 :
  93.         pn1->value > pn2->value ? 1 : 0);
  94. }
  95. #undef pn1
  96. #undef pn2
  97.  
  98. /* Adjust code lengths so that none of them exceeds max_length. */
  99. /* We break this out just to help organize the code; it's only called */
  100. /* from one place in hc_compute. */
  101. private void
  102. hc_limit_code_lengths(count_node *nodes, uint num_values, int max_length)
  103. {    int needed;        /* # of max_length codes we need to free up */
  104.     count_node *longest = nodes + num_values;
  105.  
  106.     {    /* Compute the number of additional max_length codes */
  107.         /* we need to make available. */
  108.         int length = longest[-1].code_length;
  109.         int next_length;
  110.         int avail = 0;
  111.         while ( (next_length = longest[-1].code_length) > max_length )
  112.           {    avail >>= length - next_length;
  113.             length = next_length;
  114.             (--longest)->code_length = max_length;
  115.             ++avail;
  116.           }
  117.         needed = (nodes + num_values - longest) -
  118.           (avail >>= (length - max_length));
  119.         if_debug2('W', "[w]avail=%d, needed=%d\n",
  120.               avail, needed);
  121.     }
  122.     /* Skip over all max_length codes. */
  123.     while ( longest[-1].code_length == max_length )
  124.       --longest;
  125.  
  126.     /*
  127.      * To make available a code of length N, suppose that the next
  128.      * shortest used code is of length M.
  129.      * We take the lowest-frequency code of length M and change it
  130.      * to M+1; we then have to compensate by reducing the length of
  131.      * some of the highest-frequency codes of length N, as follows:
  132.      *     M    new lengths for codes of length N
  133.      *    ---    -----------
  134.      *    N-1    (none)
  135.      *    N-2    N-1
  136.      *    <N-2    M+2, M+2, N-1
  137.      * In the present situation, N = max_length.
  138.      */
  139.     for ( ; needed > 0; --needed )
  140.       {    /* longest points to the first code of length max_length. */
  141.         /* Since codes are sorted by increasing code length, */
  142.         /* longest-1 is the desired code of length M. */
  143.         int M1 = ++(longest[-1].code_length);
  144.         switch ( max_length - M1 )
  145.           {
  146.           case 0:        /* M == N-1 */
  147.             --longest;
  148.             break;
  149.           case 1:        /* M == N-2 */
  150.             longest++->code_length = M1;
  151.             break;
  152.           default:
  153.             longest->code_length = M1 + 1;
  154.             longest[1].code_length = M1 + 1;
  155.             longest[2].code_length--;
  156.             longest += 3;
  157.           }
  158.       }
  159. }
  160.  
  161. /* Compute an optimal Huffman code from an input data set. */
  162. /* The client must have set all the elements of *def. */
  163. int
  164. hc_compute(hc_definition *def, const long *freqs, gs_memory_t *mem)
  165. {    uint num_values = def->num_values;
  166.     count_node *nodes =
  167.       (count_node *)gs_alloc_byte_array(mem, num_values * 2 - 1,
  168.                         sizeof(count_node), "hc_compute");
  169.     int i;
  170.     count_node *lowest;
  171.     count_node *comb;
  172.  
  173.     if ( nodes == 0 )
  174.       return_error(gs_error_VMerror);
  175.  
  176.     /* Create leaf nodes for the input data. */
  177.     for ( i = 0; i < num_values; ++i )
  178.       nodes[i].freq = freqs[i], nodes[i].value = i;
  179.  
  180.     /* Create a list sorted by increasing frequency. */
  181.     /* Also initialize the tree structure. */
  182.     qsort(nodes, num_values, sizeof(count_node), compare_freqs);
  183.     for ( i = 0; i < num_values; ++i )
  184.       nodes[i].next = &nodes[i - 1],
  185.       nodes[i].code_length = 0,
  186.       nodes[i].left = nodes[i].right = 0;
  187.     nodes[0].next = 0;
  188.     debug_print_nodes(nodes, num_values, "after sort", 0);
  189.  
  190.     /* Construct the Huffman code tree. */
  191.     for ( lowest = &nodes[num_values - 1], comb = &nodes[num_values]; ;
  192.           ++comb
  193.         )
  194.       {    count_node *pn1 = lowest;
  195.         count_node *pn2 = pn1->next;
  196.         long freq = pn1->freq + pn2->freq;
  197.  
  198.         /* Create a parent for the two lowest-frequency nodes. */
  199.         lowest = pn2->next;
  200.         comb->freq = freq;
  201.         if ( pn1->code_length <= pn2->code_length )
  202.           comb->left = pn1, comb->right = pn2,
  203.           comb->code_length = pn2->code_length + 1;
  204.         else
  205.           comb->left = pn2, comb->right = pn1,
  206.           comb->code_length = pn1->code_length + 1;
  207.         if ( lowest == 0 )    /* no nodes left to combine */
  208.           break;
  209.         /* Insert comb in the sorted list. */
  210.         if ( freq < lowest->freq )
  211.           comb->next = lowest, lowest = comb;
  212.         else
  213.           {    count_node *here = lowest;
  214.             while ( here->next != 0 && freq >= here->next->freq )
  215.               here = here->next;
  216.             comb->next = here->next;
  217.             here->next = comb;
  218.           }
  219.       }
  220.  
  221.     /* comb (i.e., &nodes[num_values * 2 - 2] is the root of the tree. */
  222.     /* Note that the left and right children of an interior node */
  223.     /* were constructed before, and therefore have lower indices */
  224.     /* in the nodes array than, the parent node.  Thus we can assign */
  225.     /* the code lengths (node depths) in a single descending-order */
  226.     /* sweep. */
  227.     comb++->code_length = 0;
  228.     while ( comb > nodes + num_values )
  229.       {    --comb;
  230.         comb->left->code_length = comb->right->code_length =
  231.           comb->code_length + 1;
  232.       }
  233.     debug_print_nodes(nodes, num_values * 2 - 1, "after combine", 0);
  234.  
  235.     /* Sort the leaves again by code length. */
  236.     qsort(nodes, num_values, sizeof(count_node), compare_code_lengths);
  237.     debug_print_nodes(nodes, num_values, "after re-sort", num_values);
  238.  
  239.     /* Limit the code length to def->num_counts. */
  240.     hc_limit_code_lengths(nodes, num_values, def->num_counts);
  241.     debug_print_nodes(nodes, num_values, "after limit", num_values);
  242.  
  243.     /* Sort within each code length by increasing code value. */
  244.     /* This doesn't affect data compression, but it makes */
  245.     /* the code definition itself compress better using our */
  246.     /* incremental encoding. */
  247.     for ( i = num_values; i > 0; )
  248.       {    int j = i;
  249.         int len = nodes[--j].code_length;
  250.         while ( j > 0 && nodes[j-1].code_length == len )
  251.           --j;
  252.         qsort(&nodes[j], i - j, sizeof(count_node), compare_values);
  253.         i = j;
  254.       }
  255.  
  256.     /* Extract the definition from the nodes. */
  257.     memset(def->counts, 0, sizeof(*def->counts) * (def->num_counts + 1));
  258.     for ( i = 0; i < num_values; ++i )
  259.       {    def->values[i] = nodes[i].value;
  260.         def->counts[nodes[i].code_length]++;
  261.       }
  262.  
  263.     /* All done, release working storage. */
  264.     gs_free_object(mem, nodes, "hc_compute");
  265.     return 0;
  266. }
  267.  
  268. /* ------ Byte string <-> definition procedures ------ */
  269.  
  270. /*
  271.  * We define a compressed representation for (well-behaved) definitions
  272.  * as a byte string.  A "well-behaved" definition is one where if
  273.  * code values A and B have the same code length and A < B,
  274.  * A precedes B in the values table of the definition, and hence
  275.  * A's encoding lexicographically precedes B's.
  276.  *
  277.  * The successive bytes in the compressed string  give the code lengths for
  278.  * runs of decoded values, in the form nnnnllll where nnnn is the number of
  279.  * consecutive values -1 and llll is the code length -1.
  280.  */
  281.  
  282. /* Convert a definition to a byte string. */
  283. /* The caller must provide the byte string, of length def->num_values. */
  284. /* Assume (do not check) that the definition is well-behaved. */
  285. /* Return the actual length of the string. */
  286. int
  287. hc_bytes_from_definition(byte *dbytes, const hc_definition *def)
  288. {    int i, j;
  289.     byte *bp = dbytes;
  290.     const byte *lp = dbytes;
  291.     const byte *end = dbytes + def->num_values;
  292.     const ushort *values = def->values;
  293.  
  294.     /* Temporarily use the output string as a map from */
  295.     /* values to code lengths. */
  296.     for ( i = 1; i <= def->num_counts; i++ )
  297.       for ( j = 0; j < def->counts[i]; j++ )
  298.         bp[*values++] = i;
  299.  
  300.     /* Now construct the actual string. */
  301.     while ( lp < end )
  302.       {    const byte *vp;
  303.         byte len = *lp;
  304.         for ( vp = lp + 1; vp < end && vp < lp + 16 && *vp == len; )
  305.           vp++;
  306.         *bp++ = ((vp - lp - 1) << 4) + (len - 1);
  307.         lp = vp;
  308.       }
  309.  
  310.     return bp - dbytes;
  311. }
  312.  
  313. /* Extract num_counts and num_values from a byte string. */
  314. void
  315. hc_sizes_from_bytes(hc_definition *def, const byte *dbytes, int num_bytes)
  316. {    uint num_counts = 0, num_values = 0;
  317.     int i;
  318.  
  319.     for ( i = 0; i < num_bytes; i++ )
  320.       {    int n = (dbytes[i] >> 4) + 1;
  321.         int l = (dbytes[i] & 15) + 1;
  322.         if ( l > num_counts )
  323.           num_counts = l;
  324.         num_values += n;
  325.       }
  326.     def->num_counts = num_counts;
  327.     def->num_values = num_values;
  328. }
  329.  
  330. /* Convert a byte string back to a definition. */
  331. /* The caller must initialize *def, including allocating counts and values. */
  332. void
  333. hc_definition_from_bytes(hc_definition *def, const byte *dbytes)
  334. {    int v, i;
  335.     ushort counts[max_hc_length + 1];
  336.  
  337.     /* Make a first pass to set the counts for each code length. */
  338.     memset(counts, 0, sizeof(counts[0]) * (def->num_counts + 1));
  339.     for ( i = 0, v = 0; v < def->num_values; i++ )
  340.       {    int n = (dbytes[i] >> 4) + 1;
  341.         int l = (dbytes[i] & 15) + 1;
  342.         counts[l] += n;
  343.         v += n;
  344.       }
  345.  
  346.     /* Now fill in the definition. */
  347.     memcpy(def->counts, counts, sizeof(counts[0]) * (def->num_counts + 1));
  348.     for ( i = 1, v = 0; i <= def->num_counts; i++ )
  349.       {    uint prev = counts[i];
  350.         counts[i] = v;
  351.         v += prev;
  352.       }
  353.     for ( i = 0, v = 0; v < def->num_values; i++ )
  354.       {    int n = (dbytes[i] >> 4) + 1;
  355.         int l = (dbytes[i] & 15) + 1;
  356.         int j;
  357.         for ( j = 0; j < n; n++ )
  358.           def->values[counts[l]++] = v++;
  359.       }
  360. }
  361.  
  362. /* ------ Definition -> table procedures ------ */
  363.  
  364. /* Generate the encoding table from the definition. */
  365. /* The size of the encode array is def->num_values. */
  366. void
  367. hc_make_encoding(hce_code *encode, const hc_definition *def)
  368. {    uint next = 0;
  369.     const ushort *pvalue = def->values;
  370.     uint i, k;
  371.  
  372.     for ( i = 1; i <= def->num_counts; i++ )
  373.       {    for ( k = 0; k < def->counts[i]; k++, pvalue++, next++ )
  374.           {    hce_code *pce = encode + *pvalue;
  375.             pce->code = next;
  376.             pce->code_length = i;
  377.           }
  378.         next <<= 1;
  379.       }
  380. }
  381.  
  382. /* We decode in two steps, first indexing into a table with */
  383. /* a fixed number of bits from the source, and then indexing into */
  384. /* an auxiliary table if necessary.  (See shc.h for details.) */
  385.  
  386. /* Calculate the size of the decoding table. */
  387. uint
  388. hc_sizeof_decoding(const hc_definition *def, int initial_bits)
  389. {    uint size = 1 << initial_bits;
  390.     uint carry = 0, mask = (uint)~1;
  391.     uint i;
  392.  
  393.     for ( i = initial_bits + 1; i <= def->num_counts;
  394.           i++, carry <<= 1, mask <<= 1
  395.         )
  396.       {    carry += def->counts[i];
  397.         size += carry & mask;
  398.         carry &= ~mask;
  399.       }
  400.     return size;
  401. }
  402.  
  403. /* Generate the decoding tables. */
  404. void
  405. hc_make_decoding(hcd_code *decode, const hc_definition *def,
  406.   int initial_bits)
  407. {    /* Make entries for single-dispatch codes. */
  408.     {    hcd_code *pcd = decode;
  409.         const ushort *pvalue = def->values;
  410.         uint i, k, d;
  411.  
  412.         for ( i = 0; i <= initial_bits; i++ )
  413.           {    for ( k = 0; k < def->counts[i]; k++, pvalue++ )
  414.               {    for ( d = 1 << (initial_bits - i); d > 0;
  415.                       d--, pcd++
  416.                     )
  417.                   pcd->value = *pvalue,
  418.                   pcd->code_length = i;
  419.               }
  420.           }
  421.     }
  422.     /* Make entries for two-dispatch codes. */
  423.     /* By working backward, we can do this more easily */
  424.     /* in a single pass. */
  425.     {    uint dsize = hc_sizeof_decoding(def, initial_bits);
  426.         hcd_code *pcd = decode + (1 << initial_bits);
  427.         hcd_code *pcd2 = decode + dsize;
  428.         const ushort *pvalue = def->values + def->num_values;
  429.         uint entries_left = 0, slots_left = 0, mult_shift = 0;
  430.         uint i = def->num_counts + 1, j;
  431.  
  432.         for ( ; ; )
  433.           {    if ( slots_left == 0 )
  434.               {    if ( entries_left != 0 )
  435.                   {    slots_left = 1 << (i - initial_bits);
  436.                     mult_shift = 0;
  437.                     continue;
  438.                   }
  439.                 if ( --i <= initial_bits )
  440.                     break;
  441.                 entries_left = def->counts[i];
  442.                 continue;
  443.               }
  444.             if ( entries_left == 0 )
  445.               {    entries_left = def->counts[--i];
  446.                 mult_shift++;
  447.                 continue;
  448.               }
  449.             --entries_left, --pvalue;
  450.             for ( j = 1 << mult_shift; j > 0; j-- )
  451.               {    --pcd2;
  452.                 pcd2->value = *pvalue;
  453.                 pcd2->code_length = i - initial_bits;
  454.               }
  455.             if ( (slots_left -= 1 << mult_shift) == 0 )
  456.               {    --pcd;
  457.                 pcd->value = pcd2 - decode;
  458.                 pcd->code_length = i + mult_shift;
  459.               }
  460.           }
  461.     }
  462. }
  463.